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Uma das maneiras de alhar o oficia de produzir 
informações sociais, econômicas e territoriais é como orte de 
descrever o mundo. Estatísticas e mapas transportam os fenômenos 
da realidade para escalas apropriadas à perspectiva de nossa visão 
humana e nos permitem pensar e agir ò distancia, construindo 
avenidas de mão dupla que juntam o mundo e suas imagens. Maior o 
poder de síntese dessas representações, combinando, com precisão, 
elementos dispersos e heterogêneos do cotidiano, maior o nosso 
conhecimento e o nossa capacidade de compreender e transformar o 
realidade. 

Visto como arte, o ofício de produzir essas informações 
reflete a cultura de um País e de sua época, como essa cultura vê o 
mundo e o forna visível, redefinindo o que vê e o que hd para se ver. 

No cenário de contínua inovação tecnológica e mudança 
de culturas da sociedade contemporânea, as novas tecnologias de 
informação - reunindo computadores, telecomunicações e redes de 
informação - aceleram aquele movimento de mobilização do mundo 
real. Aumenta a velocidade da acumulação de informação e são 
ampliados seus requisitos de atualização, formato - mais flexível, 
personalizado e interativo - e, principalmente, de acessibilidade. A 
plataforma digital vem se consolidando como o meio mais simples, 
barato e poderoso paro tratar a informação, tornando possíveis 
novos produtes e serviços e conquistando novos usuários. 

Acreditamos ser o ambiente de conversa e controvérsia 
e de troca entre as diferentes disciplinas, nas mesas redondas e 
sessões temáticas das Conferências Nacionais de Ceografla, 
Cartografa e Estatística e do Címpásio de Inovações, aquele que 
melhor enseja o aprimoramento do consenso sobre os fenômenos a 
serem mensurados para retratar a sociedade, a economia e o 
Território nacional e sobre as prioridades e formatos das informações 
necessárias para o fortalecimento da cidadania, a definição de 
políticas públicas e a gestão político - administrativa do País, e para 
criar uma sociedade mais Justa. 
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Resumo 



Este aiügo ^resasta uma revido abrangente, embora si^eifidal, dos desenvolvimoitos 
ocomdos em tennos do enoprego de pesquisas por amostragon paia obtenção, produção e análise 
de informações no 1BG3E, revendo também progressos recentes da teoria de amostragem As três 
prioidpais questões on termos de m^odolo^ estatística para pesquisas por amostragCTi são: como 
seledonar amostras, como estimar as quantidades desconheddas de interesse e como formular e 
justar modelos com os dados das amostras observadas. O artigo examina progressos fdtos nessas 
questões e q>onta desafios que o IBOE enfrentará nos anos vindouros para q>rovdtar pl enamaite o 
instnnnento da amostragem em benefido do conhedmento predso e detalhado da realidade 
brasileira. 



Abstract 

This paper presents a conpreiiensive but supetfidal review of devdqpmeats in the use of 
sanple surveys to produce and anafyse infimnation at IBGE, induding a discusáon of recent 
devdlopments in sairpling ibeory. Ibe three key questions in terms of statistical mdhodology for 
sarrpling surveys are: bow to select sarrples, how to estimate tíie target unknown quantíties and 
bow to pose and fit models ^ea saixple smvey data. Hie prqrer reviews progress made on these 
questions and indicates diallenges finr IBGE in the coimng years to fiiSy beneft fiom the powetfiil 
instrument of sarrpling for a predse and detaüed knotdedge of the brazüian realíty. 
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1. Introdução 



As pesquisas por amostragem desCT:q>raiibiam na Estatística p^el semelhante ao do 
telescópio na Aâxonomia. Sua "invat^o" em meados deste século e popularização na s^unda 
metade do mesmo permitiram e?qplorar com rigor dentífico vastas áreas do univorso econômico e 
sodal, no Brasil e no resto do mundo, de forma antes não imaginada. Dados obtidos através de 
pesquisas por amostragem ^tão hoje na base de conhedmeoto de todas as dâidas sociais. 

Isso justifica estudar como o instrumento (pesquisas por amostragem) tem evoluído ao 
longo do tempo, e em particular como tem ddo enq>r^do no IBOE Este artigo apresatta uma ' 
revido abrangente, end>oia stq)afidal, dos desenvolvimentos ocorridos no 1BC3B com relação à 
utilização de amostragem para obtendo e produto de rofoimações e soa posteiimr anabse. Ao 
mesmo tempo, procura rever progressos recentes da teoria de amostragem e indicar soas conexões 
e relevânda pata o IBGE e os usuários de soas informações. A amplitude da área a ser coberta é 
grande, mas a andrição do artigo é modesta. Pretende-se aqui destacar os piindpais aspectos e 
idâas, e não fozer uma descnção ou revisão detafiiada dos mesmos. 

Pesquisas por amostragem envolvan três piindq^ questões em termos de metodologia 
estatística: como sdecianar amostras, como estimar as quantidades desconheddas de interesse 
parâmetros) e como formular e justar modelos com os dados das amostras observadas. Essas 
questões orientam a dhnâo do artigo. O capítulo 2 contém uma discussão da evolução dos 
aspectos ligados ao plangamento de pesqums por amostragem. Após breve revisão hi^órica da 
introdução da amostiagemno IBGE, as modificações nitroduzidas on várias pesquisas revistas 
e os progressos alcançados indicados. 

Os a^ectos ligados à estimação de totais, médias e proporções nas pesquisas por 
amostragem do 1B(X são discutidos no cspfoilo 3, destacando-se o enpr^o de estimadores que 
incQiporam informações auxiliares na estimação e alternativas paia tratamanto de não-resposta. 

A análise de dados provenientes de pesquisas por amostragem é a questão tratada no 
capftulo 4. São sq>caitadas dificuldade causadas porque os dados são geados por desenhos 
amostrais complexos. Argumenta-se que a utilizado automática de métodos da estatística dássíca 
tais como análise de r^esâo e outros pode ser problemática. Algumas estratégias para iídar com o 
problema ão apontadas bem como se argumaita que essa é uma área em que o IBGE e seus 
usuários tem muito que íqrrender e que fozer para stqrear as dificuldades. 

O Cípâulo 5 destaca as conclusões do artigo e indica d^afios que o IBGE aifientatá nos 
anos vindouros para aproveitar plenamente o poderoso instrumento da amostragem em beneficio do 
conhedmento piedso e detalhado da reabdade biatíleira. 




2. Planejamento de Pesquisas por Amostragem 

A ntiliyaçãn de amostragem nas pesquisas do IBGE já tem uma históiia conáderáveL 
Mdando-se com a coleta de dados por amostra durante o Censo Demográfico (CD) de 1960, o 
IBCE foi sendo progresávamente "conquistado” pelo uso de amostragem A introdução da 
Pesquisa Nadonal por Amostra de DomidUos (PNAD) em 1967 é um dos marcos dessa história 
(IBQE, 1981a), seguindo-se o Censo Donográfico de 1970 (IBOT, 1983b). 

Nos censos de população, a amostragem foi introdudda piimordialmQite para reduzir 
custos de coleta de dados mais detalhados (questionário longo), cuja obtenção para a popiilação 
como um todo era muito cara. Em 1970 ençregou-se amostragem também na pesquisa de 
avaliação da qualidade, para preparar tabulações avançadas e para gerar arquivos de uso público 
pequena amostra com i^jstros indiviâuais deridentificados para servir ao público interessado em 
desenvolver suas próprias análises). A realização do Estudo Nadonal da Defesa F amiliar 
(ENDEF) em 1974/75 marca malg uma etapa desse processo de consolidação no IBCS do 
emprego da amostragran como uma fòcramenta indi^ensável ao processo de pesquisa e produção 
deinfi)imações(Vasconcellos, 1983). 

Nessa primeira âse, o uso de amostragem pelo IBGE se restiin^ a pesquisas em que o 
domicQio era a unidade de investigado. Nas pesquisas de instituições ou estábeledmentos, a norma 
era a realização de censos ou pesquisas exaustivas, tentando cobrir todas as unidades das 
req>ectivas populações de interesse. Uma exceção digna de nota foi a Pesquisa hidustiial Moisal - 
Produdo Hrica (PIM-PF) iniciada em 1971, a qual pesquisa rq)âidamente uma amostra 
intauáonal das maiores indústrias (IBG3E, 1991a). Entretanto essa pesquisa não adota esquema 
probábilístico de seledo úa amostra como as demais. Outra característica desse primeiro período 
fin a âiâse no ercprego de assessoria externa para inpienientado da amostragem nas pesquisas do 
IBOE, levando os desenhos amostrais enâo adotados a se parecerem bastante com aqueles usados 
nas pesquisas congâieres de outros pais^ 

No fim dos anos 70 e piimdra metade dos anos 80 várias razões levaram o IBGE a ampliar 
bastante o uso de amostragem em suas pesquisas. Entre essas destacaram-se a maior demanda por 
informações ágeás sobre a^os setores da econorma e da sociedade, aumentos significativos dos 
tamanho s das populações alvo e a necessidade de pesquisar populações até então não cobertas. 

Datam desse período a implantação do Sistema Nadonal de Índices de Preços ao 
Consunndor^ (SNBPC) em 1979 e da Pesquisa Mensal de Emprego^ (PME) em 1980, o uso de 
amostragem em pes^nsas da indústria, começando com a Pesquisa Espedal da Indústria'* de 1981, 



^Vga IBGE (1994a). 
^Veja IBGE (1983a). 
'‘Veja (1982a). 




pTossegamdo com a Pesquisa Industrial Anual^ (PIA) desde 1981, o íadice de Preços ao Produtor 
industrial^ (IPP) de 1981 a 1985, e mais tarde com a reformulação da Pesquisa Industrial Mensal de 
Dados Gerais^ (PIM-DG) em 1985. Vale mendonar ainda que no Censo Demográfico de 1980 a 
amostragem foi emproada de forma ainda mais anpla que em 1970, com a introdução de 
esquemas de controle de qualidade baseados em injeção por amostragem durante as etapas de 
coleta e processamento. 

Essa fiise de consofida^o da amostragem como instrumento báâco para a realizado de 
pesquisas fi>i caracterizada por maior indq>e3idêada e autonomia téoúca. O plangamento amostrai 
passou a ser realizado pmpessoal do próprio IBC^ incorporando inovações téaiicas e refletindo o 
desenvolvimento de uma cultura própria. Data ainda dessa &se o reconhecimento da necesádade de 
documentar e disseminar entre os usuários as metodobgias das pesquisas, em particular detalhes 
dos procedimentos amostrais adotados, tendo sido publicados rdatórios descrevendo as 
metodologias adotadas nas prin^ais p^quisas do IBGE. 

Foram várias as inovações introduzidas na área de planejamento amostrai Nas pesquisas 
por estábdedmentos vale mendonar o enopr^o de desenhos amostrais com probabilidades 
desiguais de seleção. A PIA.-81 CTopi^ou o m^odo de Toisscm sanphng" (IBC£, 1982b) para 
seledonar respondentes produtores de uma lista de produtos pré-detemnnada a fim de investigar 
dados de produção fisíca da indústna. Foi também enqu^ada alocação ótima para distribuir a 
amostra oitre os estratos na pesquisa de dados ganis. O IFP eapregou amostragem sistemática 
compróbainfidades deâguaispara seledonar estábeledmentos nos quais seria observada a variação 
dos preços de produtos industiiai& 

Os desenhos amostrais das PIAs de 1983 e 1984 foram modificados para refletir mudanças 
nos objetivos da pesquisa. Foram utilizados um novo cadastro base, nova eâiatificação e 
introduzidas amostras conplementares de novos estábeledmentos crptados através de r^istros 
administrativos (IBGE, 1984; Cabral, 1985). Na implantado do SNEPC enpi^ou-se amostragem 
para montar o cadastro e sdedonar a anaostra da Pesquisa de Locais de Compra, os quais seriam 
viãtados para a pesquisa de preços (IBGE, 1994b), e também na Pesquisa de E^edficação de 
Produtos ciQos preços seriam monitorados (IBGE, 1994a). 

Outra tendênda desse período fbi o uso de conputadores para o plangamento, seleção e 
e?q>anrâo de amostras. Programas usando o sistema SAS toram desenvolvidos para inq)lementar as 
estratégbs amostrais de várias pesquisas (Silva, 1989). 



^ejalBCK (1982b). 
^^ga IBGE (1982c). 
’VgaIB(S (1991a). 





Essa &se de consolidação foi seguida por mtia &se de apafôçoamento (após 1985), em 
que as estratégias amostrais de várias pesquisas foram revistas, buscando reduto dos custos, maior 
efidãida, adequação a novos olgetívos e incorporado de novos cadastros. Entre essas vale 
mendonar a redução da amostra da PNAD desde 1986 em cerca de 44% (Menezes et aL, 1986), e 
da PME desde 1988 em 30% (Silva e Moura, 1988). 

Também a PIA teve sw esquema amostrai reformulado para o período 1986-1990. Foram 
introduzidas nwíltiplas unidades de amostragem (eccpresas e unidades locais) e amostragem de 
conglomerados (seledonando-se tmidades locais e investigando-se todos os estábeledmentos nelas 
contidos). 

Uma outra revirâo amostrai com grande iropacto foi o emproo de duas fiações amostrais 
no Censo Demográfico de 1991, a saber 10% em muni(%íos com população prcgetada de mais de 
15.000 hábitaiites e 20% nos demais (Siva e Biandúni, 1990). Essa mo^fica^o reduziu a fiação 
^óbal de amostragem ooopr^ada no Censo Dmnográfico de 25% para cerca de 12,5%, resultando 
em substantiva economia de recursos durante a coleta e processamaito dos dados, sem que sga 
esperada redução apredávél da predâLo das estinaatiyas derivadas da amostra. 

Nesse período, novas pesquisas aipr^ando deseobos amostrais considerados modernos 
finam iniciadas, tais como a Pesquisa Anual do Comércáo (PAC) em 1988 (IBGE, 1991b) e a 
Pesquisa de Orçamentos Familiares (POF) reaEzada em 1986/88 (IBGE, 1992). A PAC inovou 
pelo uso de dois cadastros distintos para seleto da amostra (Censo 1985 e RAIS^) para coupensar 
problemas que cada inn desses cadastros tmia isoladamente. Foi também enpregado esquema 
amostrai com estrarificação automátíca e otímiza^o do tamanho amostrai (Hidiroglou, 1986) e 
introdurido o uso de amostra reserva para conpensar as elevadas pardas de coleta eperadas devido 
aos problemas cadastrais (Silva et al, 1995X além de se ter adotado a eirpresa como unidade de 
sdeção e investigação. 

Já a POF 86/88 inovou por ter uma amostra de domicflios desenhada sob medida, comum 
desenho em dois estágios ^enas, inco^oiando estratifícação de setores censitários pela renda além 
da localização geográfica, e com setores sdedonados com reposição e probabilidades propordonais 
ao tamanho no prhneiro estágio e domidEos com equpróbábiHdade no segundo estágio (IBCX, 
1992). Pela piimdra vez; a seleção dos domidhos a pesquisar em cada setor foi frita sem enpregar 
amostragem àstemática, mas sim amostragem aleatória simples, com o sortdo efotuado por 
couputador. O dimaisíonamento da amostra também incorporou previno de perda por não- 
reposta, outra novidade emrélação à tradição das demais pesquisas domidliares. 

Também data desse período a introdução da amostragem em pesquisas da área 
agropecuária, com a Pesquisa Agropecuária do Paraná em 1986/87. Essa pesquisa enpregou 
amostragem de áreas, com sofisticado esquema de estratificado multívaiiada incoipoiaudo 
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restrições de contiguidade (Muller, Silva e Villalobos, 1988). Essa pesquisa foi mais tarde extendidâ 
para 3 outros estados (São Paulo, Distrito Federal e Santa Catarina) e está plangada sua extensão 
para 4 outros (Mato Grosso do Sul, Goiás, Rio Grande do Sul e-Minas Gerais). 

O inído da década de 90 marcou um pedodo de retrocesso, provocado por aguda ciíse de 
financiamento das operações do IBGE. Tais problemas levaram ao cancelamento de pesquisas 
(PNAD em 1994) ou a drásticas reduções não desejadas nas amostras de pesquisas da área 
econômica (PAC e PIA desde 1992), etc. 

Essa &se de crise foi siq>etada e no momento estão em corso várias iniciativas que 
representam progresso renovado no uso de amostragem Foi inidado em 1995 um programa 
ábrangotte de reformulação das estatísticas econômicas, apdado na ampliação do uso de 
amostragem Pek primeira vez, a montagem de cadastros para a seleção de amostras das pesquisas 
econômicas periódicas será baseada numa pesquisa cadastral tairibém por amostragem (IBGE, 
1995). No passado esses cadastros eram obtidos dos censos econômcos quinquenais, que 
entretanto não foram realizados no inído da década de 90 como previsto. Já a Pesquisa Cadastro 
1995 tem como base a RAIS, procurando ^roveitar os dados cadastrais desse registro 
administrativo para siq)rir a lacuna deixada pda &ka dos censos. Numa s^unda Êise, as diversas 
pesquisas econômicas r^^das terão suas amostras revistas, passando a seledonar unidades da 
amostra-mestre da Pesquisa Cadastro. 

Tal modificação implica em novos problemas e dificuldades, causadas pela &lta das bases 
cadastrais ("benchmaiks”) antes geradas pelos censos. Mas ao mesmo tempo enseja oportunidades 
para avanços e modernizado dos desenhos amostrais das várias pesquisas econômicas. Uma 
vantagem do uso da RAIS é que novos dados râo coletados anuahnente. Isso não implica, 
entretanto, que tenha diminmdo a hrportância dos censos como fornecedores de ''benchmaiks” para 
as pesquisas periódicas. 

Outra iniciativa recente foi a introdudo da Pesquisa Mmsal do Comérdo (FMC) em 1995, 
a princpio ^enas no Rio de Jandro. Essa pesquisa inovou no enpr^o de métodos de 
estratificado ótima (Farias e Barbosa, 1995), por ser a piimdra incursão do IBGE no setor de 
comércio com uma pesquisa de periodicidade mensal e pela parceria com setores da sodedade dvil 
no plangamento e financiamento da pesquisa. 

Foi ainda realizada ^ 1994 uma Piquira piloto de Economia Informal (PEl), limitada ao 
municpio do Rio de Janeiro, com desenho amostrai simãar ao da POF 86/88. Uma inovado nessa 
pesquisa foi que a operado de listagem dos setores seledonados compreendeu uma primeira et^a 
da pesquisa, diamada "screening”, na qual finam identificadas as unidades pertencentes à populado 
alvo das quais fi>i seledonada a amostra e&tivamente pesquisada. Essa pesquisa deverá ser realizada 
em escala coirpleta an 1996, cobrindo as áreas urbanas dos 200 maiores munidpios brasileiros. 

Também está em curso desde outubro de 1995 a coleta de dados da POF 95/96, cigo 
desenho amostrai é bastante similar ao adotado na POF 86/88, com peqamos justes decorroites 
do uso de nova base cadastral obtida do Censo Demográfico de 1991 (Biandiini e Vieira, 1996). 




A Pesquisa DomícQiar sobre Padrões de ^^da (PPV), cuja pesquisa piloto foi inidada em 
março de 1996, também &z parte dessa séiie de inidatívas recentes em que a amostragem tem 
p^el de destaque. Seu desmho amostrai se assemelha àquele adotado na POF 86/88, embora com 
abrangêada geográfica distinta (regiões Nordeste e Sudeste do pais) e menor número de unidades 
seledonadas em cada estágio de amostragem (Albieri, Biandiini e Cardoso, 1995). 

Apesar da maturidade do IBGE em relação ao enqrrego de amostragem em suas pesquisas 
e à questão do plangamento amostrai, ainda há vários desafios a serem siqrerados. P r imeira mente 
há que t erminar a "conquista" da área de estatísticas agropecuárias, onde ainda se &z pouco uso de 
amostragem, em comparação com outras áreas. Um firrte candidato seria o Censo Agropecuário, 
onde o entrego de amostragem durante a col^a poderia garantir economias àgnificatívas de tempo 
e recursos, nos moldes do que ocorre no Cmso Demográfico. 

Há tamb ém muito que Ô 2 ST na direção de incorporar melhor a estrutura longtíidinal de 
pesquisas repetidas cmno a PME, a PlMrDG e a P1M>PF ao rever os respectivos desenhos 
amostrais. A introdução de procedimentos de rota^o nas amostras das pesquisas da área 
econômica, por exemplo, podetía propordonar redução do ônus dos repondentes de menor porte 
ao mesmo tempo que daria oportunidade para atualizações mais fi‘eqõentes das mesmas. Já no caso 
da PME, há razões para aer que reduções ainda maiores no tamanho da amostra seriam possíveis 
sem grande perda de pred^o, bastando para isso que a estrutura longtudinal da pesquisa sga mais 
p lenamente provdtada na hora da estimado, como se vai discutir no próximo caphulo. 

Um último desafio seria a montagem de ástemas mais estávds de geração e atualização das 
bases cadastrais das p^quisas, menos dpendentes de censos, como se e^oça na área econômica 
com a introdução da pesquisa cadastro. Tal otgetivo ainda está fi>ra de alcance para toda a área de 
pesquisas domidliares peb falta de uma base cadastral digitalizada (incluindo mapas) e/ou de listas 
de endereços domidliares emmdo magnâico, tais como as etistentes em outros países. 

3. Estimação em Pesquisas por Amostr^em 

Este cphulo discute a questão da estimado em pesquisas por amostragCTx A revisão do 
uso de amostragem no IBOE presentada no cpítulo 2 serve como pano de fimdo para ajudar a 
corrpreender o desenvolvimento tamb ém observado no uso de màodos de estimação. 

Na primeira fase do uso de amostragem nas pesquisas do IBGE os estimadores enpregados 
para totais e médias baseavam-se na idâa de ponderar as observações amostrais pelo inverso das 
respectivas probabilidades de seleção e tinham em comum o objetivo de ânpliddade de cálculo. Os 
estimadores para totais eram da farma 

f = 

t& 



( 1 ) 




onde 7 é o estímador de Horvitz-Thonipson do total populadonal de uma variável 3 ^ qualquer, é 
o valor dessa variável paia a />ésnna unida^ amostrai, é o peso dado à />ésima umdade amostrai, 

calculado como iv, = seudo vr, a probabilidade de inclusão na amostra da /-érima unidade, e a 
soma é sobre o coigunto s de todas as unidades da amostra. 

Devido ao enq>r^o de desenhos amostrais "autopanderados”^ (no Caiso Demográfico, 
PNAD e PME, por examplo), a ançliddade dos estímadores oa "assegurada" pelo desenho 
amostiaL Com as probabilidades de sdeção todas iguais à fiação amostrai f=n/N, onde n é o 
tamanho da amostra & N o tamanho da população, os pesos Wt são todos iguais ao inverso dessa 
fibação (li', = N/n V/ ) e a e>q>res^o do estímador de total em(l) se reduz a 

Y = (N/n)'^y, = Ny 

ies 

onde y é z média amostrai da variável y. Nesse periodo a preocq)a^o com a estimação e 
divulgado da preciso das estimatívas era secundária. 

Tal esquema se justífícava pelo inçeratívo prático de efetuar os cálculos das estimativas 
sem siq>Qite computadonal sofisticado. A ocorrãida de problemas práticos tais como não>re^osta 
(possivelmente diferencial em relação a subgrupos da amostra) e desatualização da base cadastral à 
medida que o pmodo de lefaênda da pesquisa se afestava do último censo, dificultava o uso puro 
e atiq>les de estímadores "autopondandos". Na PNAD, por exemplo, o t ratament o dispaisado às 
'^ovas construções" fi>i motívado an parte nela adarâiãa ao uso de estímadores autoponderados 
(Menezes, Almeida e Biandrini, 1991). Na PME um dos problemas que levou à necesridade de 
redução da amostra an 1988 fin provocado peia tentativa de manta a autoponderação do desaiho 
mediante uso de fiação fixa de amostragemno segundo está^o (Silva e Moura, 1988). 

A despato desses esforços para manta os estímadores autoponderados, obsavou-se que 
tais estímadores tqnesentavam vido não desprezívéL A saída foi adotar estímadores que 
"calibrassan" a pesquisa, de forma que as estimatívas de totais da p<^ulação em certas categorias 
coinddissem com totais obtidos de projeções danográficas independentes. Isso aa feito mediante 
ençrego de estímadores de razão (quando q>enas o total global da população é usado) ou pós- 
estratificação (quando a calibração se dá para duas ou mais categorias da população), em comum 
com a prática adotada em vários outros países. Nesse caso, os pesos amo strais são dados pelo 
inverso da finção amostrai observada em cada categoria, isto é, Wi = Nh/nt, se a unidade / 
pertence ao pós-estrato h. 

Estímadores de pó&-estratíficação »o uma fiuma simples de incorporar informações 
auxifiaies paia melhorar as estimatívas amostrais. Essa melhoria se dá pela redução de vido 



^Asam diamados porque todas as unidades populadonais têm idêntica probabilidade de inclusão 
na amostra. 




provocado por não-re^osta ou desatuaHzação cadastral, ou pela redução da variânda das 
estimativas devido ao efeito da estratificação. Quando o núm^o de categorias nas quais a amostra é 
pós-estratificada é pequeuo, o ençrego desses estimadores é relatívamente sinples. É desse tipo o 
esquema de estimação adotado nas amostras dos Caisos Demográficos de 1960 e 1970. Na PNAD 
e na PME são empregados estimadores de razão snples, calibrando-se apenas para o total da 
população residente projetada. Estimadores de razão com totais de pessoal ocupado e valor da 
produção foram tamibém adotados na e?q)ansão da PIA de 1981 (IBGE, 1981b). 

Uma vantagem óbvia da calibração é a concordânda das estimativas da pesquisa com os 
totais depopula^o projetados^ semprguízo da sinçliddade do processo de estimação. Entretanto, 
ela ajuda a mascarar problemas tais como a inexistênda de tratamento adequado para a não- 
resposta (na PNAD e na PME), e as dificuldades causadas pela tentativa de aderâida à 
antqpond^^o. Outra dificuldade é a qualidade das projeções de população usadas para calibrar a 
amostra (Bianchini, 1990). O Censo Demográfico de 1991 mostrou que as projeções populadonais 
para o final da década de 80 e Mdo da década de 90 estavam styerestnnadas, e esse e^o foi 
r^assado para as estimativas de totais origmadas da PNAD e PME 

A incorporado de infijimações populacionais auxiliares na et^a de estimação de pesquisas 
por amostragem é a ligado comum a todas essas q)Hcações. Nesse assunto o IBOE já adquiriu 
larga expeiiênda e tem &ito, em alginnas áreas, uso letivo dos desenvolvimentos recentes da 
teoria. Para corroborar essa afirmado é predso examinar a evohido dessa teoria e de como ela 
tem ádo q>licada no IBGE. 

O aprovdtamento de informações populadonais auxiliares para estimado em pesquisas por 
amostragem é uma das partes da teoria de amostragem que mais progrediu desde os anos 70. O 
livro que represattava o "estado da arte" da amostragem até então (Codiran, 1977) contemplava o 
uso de infirrmações auxiliares através de estimadores de razão ou de regressão ànples (ambos 
incorporando q>enas uma variável auxQiar) ou de pós-estratificado. Entretanto essas técnicas eram 
apresentadas como ferramentas sq)aradas, sem uma ligado comum 

O 1BC£ adotou na e?q)ansão da amostra do Censo Demográfico de 1980 o Processo 
fieratívo de Estimado por Totais Marginais (PIETOM) (IBGE, 1983b) aplicado separadamete 
para cada uma de 4219 áreas de ponderado^”. Esse método consistia em definir uma tabela (ou 
matriz) de pós-estratificado de dupla entrada, cujas finhas e colunas eram dadas por conibinações 
de valores das variávàs auxiliares, as quais foram investigadas a 100% através do questionário 
báàco. Eam portanto conheddos os totais populadonais das celas, linhas e colunas dessa tabela. 
Os pesos amostrais para unidades em cada cela eram calculados por um processo iterativo de ajuste 
dos pesos sinples inidais, de forma tal que as estimativas amostrais eram sucesdvamente calibradas 
nos totais das finba.<; e depois das colonas, até que fosse observada convergênda dos pesos. 



^^Área de poncteração é a menor área para a qual se calculava estimativas, e coinddia na maior 
parte das vezes comummunicpio, podendo ser subdivido d^e nos de maior população. 




o liso desse método permitm atzpHar bastante o número de vaiiáveis auxiliares 
consideradas para a calibração das estimativas amostrais: a tabela de pós-estratificação empregada 
em 1980 tinlia 720 celas, em comparação com os 46 pós-estratos adotados no Censo de 1970. No 
entanto, tal método envolvia um algoritmo iterativo que podia não convergir, requerendo ajustes na 
pós-estratificação quando isso ocorria. Além disso, o método inçlementado em programas 
desenvolvidos sob medida, requeria cálculos complicados para estimação da predsão e irâo ofereda 
nma teoiia para e?q)licar a definido da pós-estratíficação. Essas dificuldades levaram o 1BC£ a 
procurar um novo método para e?q)andir a amostra do Coiso Demográfico de 1991, apesar do 
sucesso da ^licação do PIETOM em 1980. 

Nesse período houve grande progresso na teoria. O livro que corre^onde ao estado da arte 
da amostragem no inído dos anos 90 (Sãmdal, Sweosson e Wretman, 1992) q>resenta as técnicas 
de pós-estratificação, estimação de rarâo e de r^ressão como casos particulares do estimador de 
regressão genarahzado, o qual fornece uma estrutura fie?dvel e efidente para incorporar 
informações auxifiares na etapu de estimação. Esse estimador pode ser esorto na forma (IX 
nesse caso os pesos são dados por 



Wi - TCiZi ( 2 ) 

onde g, é um fotor de ajuste ou calibrado que incorpora informações sobre um v^or 
Xi — (xa,^-;XiQ/ de variávds auxiliares. 

O estimador de regtesrâo generalizado é motivado por um modelo linear reladonando a 
variável de interes^j com o vetor de variávds auxiliares x tal como 

(3) 

onde Po e 3 são parâmetros desconheddos, e se assume que os resíduos si tem média 0 e são não 
correladonados, com variânda conhedda a menos de um fotor de escala Oe- 

No caso mais sinples em que a amostra é aleatória sirrples sem repoáção e os erros do 
modelo (3) são stq>ostos homoscedásticos, o fotor de ajuste g, é dado por 

g, = 7 + ã-x/sUx^-V (4) 

onde X é o vetor de médias conheddo das variáveis auxiliares na população, e x e são 
respectívamente o vetor de médias e a matriz de covariândas das variáveis auxibaies na amostra. 

Com os fotores de ajuste dados por (4) é fodl mostrar que o estimador de regressão do total 
Y pode ser esciho como 



r, = a-x/b] 



(S) 




onde b = S^Sx^ é estimador de nmmnos quadrados ordinários do parâmetro P e é a 
covariânda anu>stral entre x ey. 

O estimador de r^essão é útil por pelo menos três motivos. Primdro porque oferece 
cafibração nas variáveis amdliares, isto é, se 2 q>licado a qualquer das vaiiávds do vetor x, replicará 
exatamente seu total conheddo na população. S^undo porque oferece ganhos de efidênda em 
relação ao estimador de Horvitz-Ihtmopson soiçre que a vaiiânda dos readuos Si for maior que 
a dos (Sãmdal, Swensson e Wretman, 1992, cq>. 6). Tercdro porque tem grande flexibilidade, já 
que 0 vetor x de variáveis auxiliares pode induir qualquer número de vaiiávds de tq>o contmuo ou 
trinário, ou ambos, e também devido ser &dfanaite goieializado para o caso de desenhos amostrais 
con^>lexos. 

Estimadores de r^es^o podem também ser justificados sob várias ábordagois ahemativas 
da teoria de amostragon. O hvro de Sãmdal, Swensson e Wroman ( 1992) oiãtiza uma abordagem 
"model assisted”, em que o modelo de r^ressão (3) é usado para motivar o estimador, mas em que 
as propriedades do mesmo são avaliadas com re^dto à distribuído gerada por rq>etidas 
replícações do processo de seledo da amostra. 

Já Royall (1970) e seus s^uidores apresentam esse estimador como o estimador ótimo sob 
mna fàmíHa de moddos lineares, ignorando o desenho amostrai na in&rãiaa e a valiand o as 
propriedades do estimador comrespdto a diferentes realimções do modelo postulado. 

Mais recaUanente, Deville e Sãmdal (1992) identíficaram o estimador de regresão como 
um dos membros de uma femOia de estímadmres de calibia^o da forma (IX em que os pesos w,- são 
da flnma (2) comfetores de ^usteg> obtidos de feima a minimiTar a distânda 



D = Ep 



- 1)^ ! Vi 

ies 



( 6 ) 



stgótoà restrição de que ^m^giXi = ^Xi, onde .Ep iqnesenta uma esperança com relação à 

ies íeC/ 

distribuição gerada pdo desenho amostrai, e v, são núma^os positivos conheddos, por exenplo 
propordonais às vaiiândas dos erros Si iio moddo linear (3X £nçregando-se outras fimções de 
distânda se gera uma anopla femíKa de estimadoies que indui os "ralring raúo esúmators" do 
método FEETOM, estimadores de r^res^o, de ramo, de pós-estratificação e outros. 

Estimadoies de mmimos quadrados goioalizados em dois estágios (MQG2) dessa fennTia 
foram ^ficados para a eiqianmo da amostra do Censo Demográfico de 1991 (Silva, Biandiini e 
ADneii, 1993; Albieri e l^as, 1994). Eles substituiram o PIETOM com algumas vantagens Esses 




estimadores não dq>endem de processo iterativo de cálculo, são siçoitados por uma teoria sólida, 
ãoçMcaram a estimado da predsão e forneceram recursos para automação do processo de 
seleção das variáveis auxiliares nas quais calibração pode ser inq>osta. Foi possível contar com 
programas mais ou menos gerais para inçkmentação do método prq>arados e cedidos ao 1BC£ 
pelo Statistics Canada, ct^a ad^tação para uso no censo braâleiio foi &áta com custo muito menor 
que o do desenvolvimento sob medida anterior. 

Um dos usos habituais da amostra do censo demográfico é para estimação de medidas de 
concoitração da raida. Essas medidas podem gerahnente ser doivadas da fimção de distribuição da 
renda na população. Estimadores de póspestratificação similares aos enqrr^dos na e?q)ansão da 
amostra do censo 1991 foram considerados em Silva e Sknmer (1995) paia estimar a fonção de 
distribuição populadonal Tais estimadores oforecem ganhos de predsão razoáveis em conçaiação 
com estimadores mais simples (Horvitz-Ihonqrson, razão e diforença), semnecesádade de recorrer 
a estimadores não-lineares mais corsplexos diq>onívds na literatura. 

A ôi&se dada aqui à discussão do màodo de estimação adotado no Censo Demográfico de 
1991 se justifica porque dela se dedvam vários outros a^ectos de interesse. Piimeiramente vale 
notar que tem aumentado no IBGE o en:q)r^o de sistemas genéricos em substituição a sistemas 
desenvolvidos sob medida, em resposta às necessidades de redução de custos e aumoito da 
confiabilidade e efidmda das et^as de proces^mento dos dados (Silva e Biancáiini, 1995). Na 
área de estimação em amostragem, em particular, há hoje em dia v árias opções de àstemas 
genéricos; SUDAAN (Shah et aL, 1992), GES (Estevão, Hdirogloa e Sãmdal, 1995), BASCULA 
(Gõt^ens et aL, 1991), PC-CARP (Fuller, 1986X CALMAR (Sautoiy, 1993), CLAN (Andersson e 
Nordberg, 1994X WESVARPC (Westat, 1995). Todos esses ástemas são capazes de calcular 
estimativas de totais e médias, e re^ectivas medidas de pred^o (exceto CALMAR), para mua 
anq>la gama de desenhos amostrais e tipos de estimadores. 

&n particular, o astema GES desenvolvido no Statistics Canada inçlementa a metodologia 
de estimadores de r^ressão generalizados tal como descdta no hvro de Sãmdal, Swensson e 
Wretman (1992). Embora a di^onfinlidade de tais sist emas não fosse a me sma no passado, o que 
ajuda a oitender a prática do desenvolvimento local sob medida, eles não podem mais ser 
ignorados. Por justiça, vale mmdonar que a estimado do ENDEF foi foita ençregando um sistema 
genérico daLonnnado ARIEL, à ^oca conãderado o estado da arte. No futuro, o IBGE deverá 
basear a estimação de suas pesquisas no euqtrego de àstemas genéticos desse tço. 

O màodo adotado no Censo 91 incorpora tratamento de não-resposta por repondera^o 
automaticamente. Apesar da existência de outras opções para o tratamento de não-resposta, é 
consQisual no mundo das estatísticas ofidais que não-resposta a nível de unidades perdidas por 
conpleto ("imit nonresponse”) em pesquisas domiciliares deve ser tratada mediante reponderação. 
Portanto é um bônus contar com um método de estimação que tenha essa focQidade embutida. 




Para nãore^osta de itens o tratamento maig comumente ^ficado é a imputação, cuja 
discusâo está fora do escopo desse artigo. As e7q>etiências e progressos do IBGE nesse assunto 
foram revistas em SSva e Biancfaini (1995). 

Nas pesquisas domicQiares tradidonais do IBGE (PNAD e PME) não se ençrega um 
tratamento adequado para não-re^osta de unidades perdidas por conçleto. Já na POF 86/88 foram 
entregadas correções baseadas no inverso da taxa de não-re^osta de cada setor da amostra, ao 
mesmo tempo que estímadores de ra^o baseados na projeção da população residente (1B(£, 
1992). Nas pesquisas da área econônnca a prática adotada tem ado a de reponderar as unidades 
retondentes de cada estrato para compensar a perda por não-resposta, como é o caso da HA 
(mOE, 1983c) e da PAC (IBffi, 1991b). 

Apesar de se tratar de assunto no qual o IBGE já acumula alguma e?q)eriênda, bá grande 
desigualdade no reconhedmeaito do problema pelas suas diversas áreas. Há que investir maig no 
entrego de téaiicas adequadas para monitoramento e tratamento da não-resposta, bem como na 
prática de rq>ortar junto dos resultados os nivds de não-recosta observados nas várias pesquisas, 
para pemntír avaba^o pdos usuários dos dados. Nessa questão a POF 86/88 também deu 
exeirtlo, reportando dados detalhados de não-recosta total e por tto. Mas a prática ainda não é 
a do t ad a armplaTnente 

A metodolo^ MQG2 adotada no censo 1991 pemnte incocorar grande número de 
variáveis amdliares, mas não oferece uma teoria para a escolha ótima das mesmas. Esse é um dos 
acoctos do entrego de eâimadores de regresso que tem merecido atenção da comunidade de 
pesqinsa recentemente. Bm particular. Silva e Skinner (1996) cresentam um método para seleção 
de variávds amdhares c^^^o se utiliza estímadores de regressão ciga efídência para es timar a 
média de uma variável recosta ecotáficada fin maior que a de vários contotidores. Süva e Sldnner 
(1996) ainda para perda de pred^o do estimador de regressão quando o número de 

variáveis auxiliares cresce demasiadamoite, alertando para a necesádade de estabelecer um 
contromisso entre a calibração no maior número possível de variáveis auxiliares sem hrpor grande 
perda de efidênda no estimador. 

O método MQG2 fornece es timat ivas de predsão de mandra mais ântles que o PIETOM. 
Essa fei «ma das áreas em que o IBGE progrediu bastante. Desde meados dos anos 80 passou a ser 
rotina o cálculo e dissennnação de medidas da pred^o das estimativas obtidas de pesquisas por 
amostragem, tanto as domidliares como as da área econômica. A ferma adotada para disseminar as 
estímatívas de pred^o tem variado no teirco e ainda representa um problema interessante. 

Algumas vezes, como na PIA 1981, optou-se por duplicar o plano tabular publicando para 
cada tabela com es timat ivas de totais «ma outra com estimativas dos recectivos coefidentes de 
variação (CVs). Essa opção dá es timat ivas de predâio em grande detalhe, mas sua hrclementação 
é cara. Mais recentemente o padrão tem âdo publicar medidas agregadas da qualidade das 
estinrativas, tais como tabelas resumindo as distrfeuições de feeqüêncáa dos CVs das estímativ^ de 




total, como é o caso da PAC. Essa forma tem baixo custo, mas não permite conhecer o valor do 
C V de uma dada estimativa de total 

Um mdo termo foi encontrado para dissennnar a precisão das estimativas da amostra do 
Censo Demográfico de 19S0, no qual foram eoiqtregadas fimções de vaiiânda generalizadas 
("goieralized vaiiance fimctions", Woher, 1985) para permitir que usuários dos dados calculassem 
eles mesmos a precisão aproximada de qualquer estimativa de total desejada. Essas fimções foram 
obtidas mediante um ajuste de modelos de regressão relacionando a predsão (CV) com o valor da 
estimativa (IBC£, 1983b). Essa abordagem &i adotada também na FNAD desde 1983. Já a PME 
não divulga estimativas de precisão, embora sejam calculados para uso interno os CVs estimados de 
algiimag das taxas e totais divulgados com base nessa pesquisa. Uma solução "definitiva" para o 
problema ainda não está disponível, e esse é um tema que deve merecer atenção nos esforços de 
pesquisa metodológica do IBGE. 

Um outro tema conectado com o método de estimação adotado no Censo 91 é a questão 
da estimação para pequoios domnüos. Até o Censo de 1980, qualquer estímatrva para domniios 
(áreas) menores que «ma área de ponderação dq)endia de um processo de estimação caro e 
demorado, o que fiustrava muitos usuários ou mesmo desencorajava um uso mais pkno dos dadós 
do censo. O mesmo não pode ser dito do mâodo adotado em 1991. Como a calibração é foita em 
dois níveis, um deles considerando totais populadonais por setor, é possível gerar estimativas para 
agregados de setores dentro de inna mesma área de ponderação utíiizando os pesos calculados pela 
metcdologia MQG2 adotando>se técnicas usuais de estimação em sul^opulações. Se esses 
dommios tiverem tamanho mínimo da ordem de 5.000 habitantes, é provável que as re^ectivas 
estimatrvas tenham precisão aceitável 

Portanto não deverá mais ser necessário recorrer a mdodos "ad hoc" para gerar estimativas 
para "agitados de setores" a partir da amostra do Cmso 1991. Isso não elimina a posabüidade de 
que essas estimativas possam ser melhoradas usando màodos mais sofisticados, cqrazes de 
incorporar outras informações auxiliares. A questão de como estimar para pequaios domínios em 
pesquisas por amostragem foi outra em que a teoria da amostragCTi avançou bastante desde os anos 
70. Na preparação de tabulações avançadas do Censo 1980 foram empregados estimadores 
sintéticos (Garda, 1986) para gerar as estimativas a nível de microrregião (IBCSB, 1983b). 

Mais recartemoite. Moura (1994) estudou o emprego de modelos hierárquicos para 
obtenção de estimadores para pequenos domínios. Esses estimadores se revelaram superiores 
quando conq)arados com estimadores convendonais encontrados na literatura mediante estudo de 
ámulação usando dados do Coiso Demográfico E7q)erimental de Limdra de 1988, indicando que 
há ganhos quando se incorpora a estrutura hierárquica dos dados na modelagem e estimação. 
Apesar desses esforços, ainda há pouca aphcação prática no IBGE das modernas técnicas 
disponívds para obtenção de estimativas para pequenos domniios. Essa é uma área em que 
investimentos relativamente modestos permitiriam aumentar substandalmente o valor dos dados das 
pesquisas através da divulgado de estimativas para áreas geográficas mais detalhadas, por exenplo. 




Assodada com a di^talização da base geográfica e o CTq>rego de sistemas de m&imações 
geográficas (SIG), tal iniciativa p ermitir ia considerar a dimensão geográfica na análise dos 
resultados das pesquisas de forma bem mais detalhada, o que enriqueceria bastante as possibilidades 
anaHdcas. 

Métodos baseados no estimador de regressão podem tamb ém ser usados para combinar 
resultados de pesquisas distintas, a fim de aumentar a predsão das estimativas. Por exerrq>lo, as 
pesquisas mensais poderiam to* suas estimativas calibradas anuahnente à luz dos resultados das 
pesquisas arruais, ciqas amostras (cti geral bem maiores) fornecem estimatrvas mais predsas. Ou 
também pode ser errqrr^da amostragem em duas etqras, como deverá ocorrer nas novas 
pesquisas da área econôimca, que deverão ser subamostras da pesquisa cadastro (IBGE, 1995). 

Um último a^ecto da metodologia de estimação do Censo que se quer comentar aqui diz 
re^dto aos pesos que da gera paia produção das estimativas. Essa metodologia, como tamb ém a 
do Censo SO e de outras pesquisas como a POF 86/88, inpfica em que os pesos atribuídos aos 
r^istros individuais âo "coruplexos”, e não deúvados da mera inversão das reqiectivas 
probabilidades de sde^o. Isso tem ntqrlicações para os usuários de arquivos de microdados 
divulgados i>ei 0 1B(£, como se verá commais detalhes no próximo capitulo. 

A utilização de métodos mais dáborados de estimação nas pesquisas da área econômica é 
ainda incónente. Nessa área há muito para &zer em termos de qproveitar mdhor as informações 
aicdEaies di^onrveis e também em ida^o ao enq)rego de métodos capazes de corrq)ensar as 
deficiiâidlas da base cadastral existente. Isso sem felar qae várias questões tratadas no âmbito das 
pesquisas donndliares também se sqrlicampara essas pesquisas. 

Encenando esse cqrfiulo, discute-se a questão da estimação em pesquisas rq)etidas, na qual 
pouco foi f^o no IBGE. A grande maioiia das pesquisas repetidas que o IBGE realiza ignora a 
estrutma longitudinal dos dados na hora da estimado, tratando cada rodada da pesquisa como se 
fosse uma pesquisa sqiarada ("cross-section"). Isso é muito inefidente se comparado com 
estímadores que combinam informações amostrais da rodada atual com as séries históricas 
armazenadas, como mostrado em SQva (1992) com uma ^ficação a dados da PEM-DG. Tem 
havido grande progresso na teoria, com inúmeros artigos publicados recentemente, conforme a 
revisão em Silva (1995). 

Trata-se de técnicas com grande potencial em termos de oforecer estímadores de mdOior 
pred^o sem necesadade de anqrfiar tamanhos de amostra. Ao contrário, provavelmente seu 
enq)r^o propidaria margem para redação dos tamanhos de amostra atuais. Entre as candidatas 
mais óbvias para enopt^o dessas técnicas esâo a PIM-DG, PMC e a PME. Esta última poderia se 
benefidar também de um redesaiho que qnrov^asse idâas como as errpregadas na Pesquisa de 
Enpr^o e Desemprego na Grande São Paulo (PED) do SEADE/DIEESE, em particular a adoção 
de «ma amostra trimestral com utilização de trimestres móveis para divulgado m ensal de 
estimativas das taxas de interesse. 




4. Aoálise de Dados de Pesquisas por Amostragem 



A anáHse (estatística) de dados e resultadus de pesquisas por amostragem é uma das áreas 
em que o IBGE tem muito que &zer e avançar. Entre o inído dos anos 70 e meados da década de 
80 grande inçortância era dada à questão da análise dos resultados das pesquisas no IBGE, embora 
essa análise nem sençre fosse apoiada na metodobgia estatística. Esse período foi seguido por 
outro em que as prioridades foram alteradas e o IBGE passou a se concaitrar mais na produção das 
informações básicas. Portanto não há hoje em dia «ma tradição estabelecida de analisar em detalhe 
os resultados das pesquisas. 

A prática de analisar os resultados das pesquisas enriquece as mesmas, aumenta o valor dos 
dados que das produzem, fomenta o desenvolvimento técnico e contribui para o plangamaito de 
pesquisas semdhantes no fiituro. Em certa medida, também fodiita um diálogo maior entre os 
usuários e o 1BC£, pois este último passa a ter intedocntores mais qualificados e um entenchmaito 
mdhor das necessidades dos primeiros. Por essas razões argumenta-se que o IBGE deve investir no 
desenvolvimento da soa cq)addade de analisar dados e resultados das pesquisas, processo no qual 
uma parceda coma comunidade acadênnca e de usuários éhufi^ensávd. 

Um outro motivo que justifica a realização de análises é o foto de que o IBGE tem acesso 
aos dados individuais detalhados de cada pesquisa, enquanto que os usuários fibeqüeartemente tem 
acesso ^enas a dados agregados, por razões ligadas à preservação do sigilo das informações. 
Como se verá mais adiante, essa é uma linntação séria para o enqn^o de màodos modernos de 
análise estatística. Isso sem mendonar que nem todos os usuários estão cq>adtados a processar 
grandes volumes de dados como os halntualmente produzidos pélas pesquisas do IBGE. 

Tendo como ol^etívo ampliar a c^addade e o papel analítico do IBGE, é hrportante 
discutir como isso pode ser fdto e que recursos a ^tatística tem hoje para oferecer em siçorte a 
essa tare&. Para dar uma idâa resumida da evolução nessa questão, é interessante comparar dois 
cenários. 

Por volta de 1970, os resultados das pesquisas por amostragem (ou censos) eram 
essendahnaite tabelas com totais das variávds pesquisadas por categorias de interesse. Essas 
tabelas raam condensadas em pesados livros ou “volumes de divulgado", provendo a úráca fonte 
de acesso aos dados por usuários externos. Um analista tpico teria que conpilar informações 
provenientes de vários dessfô volumes de tabelas e efotuar (mamialment e) cálculos 
(necessariamoite ânples) para atingir conclusões. Como não se publicavam estimativas da 
precisão, as análises ficavam enpobreddas, pois não se tinha idéb da significânda de el^os ou 
(fiferaiças encontradas nos dados. Comentários publicados junto das tabelas eram muitas vezes 
mera descrição das m esmas em palavras, pouco acresceotando em termos de uma conpreensão dos 
resultados. Essa atuação caracterizava essendaimoite uma "análise descritiva (manual)" dos dados. 

Hoje em dia ainda se publicam tabelas com totais das variáveis pesquisadas, nras também se 
coloca à dispoàção dos usuários arquivos com microdados (detídentíficados) e mais recentemente 




até acesso eletrônico direto às piindpais coleções, por exençlo via INTERNET. Um analista tçico 
di^õe de um con^>utador com acesso aos dados em fonnato eletrônico (local ou remoto) e de 
ástemas com sofisticados recursos para mango dos dados, produto de gráficos e análise 
estatística. Com esses ástemas é possível analisar diretamaite os dados individuais e formular, 
ajustar, testar e validar modelos levando em conta a predsão das estimativas e o foto de que os 
dados foram obtidos por amostragem Análises desse ^o contribuem de mandra efetiva para a 
evolução do conliedmento, merecendo a descrição de "pesquisa” no sentido acadêmico da palavra. 

Que fotores diforendam o segundo cenário do primeiro? Em piimdro higar, a 
di^onibilidade de conputadores e meios de comunicação cada vez mais poderosos e de baixo 
custo, garantindo a possibilidade de acesso direto aos dados pelos analistas interessados. Bn 
segundo lugar, a anqrüação do acesso aos nncrodados, mediante preparação de produtos de pronta 
entrega e de fodlidades para acesso detrônico remoto às bases de dados. Ainda há muito que fozer 
nessa área, mas bá que re^strar o progresso alcançado. Hoje o 1BC£ divulga rotindramente 
arquivos de microdados de suas piinc^ais pesquisas domidliares. 

Além desses fotores, bá que reconbecer a evolução da teoria Estatística, em grande parte 
sustentada péla evohi^o do poder coroputadonal No primdro cenário, um analis ta interessado em 
investigar o diforendal de salários recdndos s^undo o sexo do indivíduo ficaria limitado a 
corr^>arar médias de salários dosr^ectivos gnq)os dassificados por mais tuna ou duas variáveis de 
controle, tais como setor de atividade ou idade. Tais coirparações eram merameute descritivas, pois 
sem medidas da predsão das estimativas era nrpossível estabelecer a significânda das diferenças 
encontradas. 

Hoje em dia, dispondo dos dados individuais de mna pesquisa como a PNAD, por exenplo, 
um analista interessado na mesma questão pode formular modelos de regresso múbpla para 
e?q)licar a variado dos salários em fim^o de outras vaiiávds, e então testar a tignificânda dos 
e^os prin(%>ais e interações. E é aqui ^le a evolução da teoria estatística se revela crudal Se em 
meados dos anos 70 era comum o uso de modelos de regressão e outros moddos estatísticos em 
várias áreas de dãidas, só mais recentemente essas téoúcas foram adotadas para aplicado na 
análise de dados proveniartes de pesquisas por amostragem 

Na modelagem estatística convendonal se assume que as observações de uma amostra^* 
são independartes e identicamente distribuídas (IID). Tal bçótese é inadequada para o caso das 
pesquisas por amostragem realizadas para produto de estatísticas oficiais e muitas outras. Por 
razões práticas tais como ineTÔstênda de cadastros (de pessoas, por exenplo) ou de eficiâicia, essas 
pesquisas gerabnente enpr^am deseobos amostrais "corrplexos" envolvendo estratificação, 
conglomerado e probabilidades desiguais de seleção. Eníbora adequados para gerar amostras aqas 



^^Aqui o termo é enqnregado no sentido anq)lo de um conjunto de observações de um certo 
fenômeno cigas propriedades se quer investigar. 




estímatívas de totais represoitativas da poptúação de interesse, esses desenhos produza 
amostras que não pod^ ser adequadamente modeladas como IID. 

Só recentoDoente se teve acesso ançlo a uma abordagem teóiica coerente e amaduredda 
para lidar com essas situações: o livro de Skinner, Hoh e Smith (1989) discute métodos para a 
análise de dados de pesquisas complexas. Uma das idéias aü enâtizadas é a de que é essendal 
conàderar o desenho amostrai ao &zer inferência estatística entregando dados provenientes de 
amostras coinplexas. 

Para ihistrar esse ponto, reconádere o analista interessado em testar se há diferoiça 
significativa entre as médias dos salários recd)idos por pessoas do sexo masculino e feminino, 
usando dados de «ma amostra contlexa. Se esse analista tentasse aplicar um teste t de Student 
usando um pacote estatístico qualquer, baseando sua análise na amostra de dados individuais, sua 
in&rôicia estaria incorreta. Sem exceção, os procedimentos automatizados nos pacotes estatísticos 
de uso geral assumem que a amostra é IID. Isso geralmente inq>lica em estimativas de predsão 
(essendais para se fiizer testes de hçótese e in&rãida estatística em geral) que são vidadas, 
subestimando grossdramente o oro padrão dfetivamente alcançado com a amostra. 

Skinnei^ Holt e Smidi (1989) propõe o uso de fittores de correção, denormnados de 
"raisspecificatíon efiects" (MEEF), para cotri^ as estimativas de predsão habituais em razão da 
espedficação incorreta da distribuição da amostra. O IBCS) publicou estimativas de âtores desse 
tq>o para alguma.*; variávds com base na amostra do Censo DOTiográfico de 1980 (Silva e Moura, 
1990). Essa nbordagem daria conta de resolver o problema para questõ^ ia^endais relativamente 
snples, tais como conçarações de médias por subgrupos ("AKOVA") e outras similares. Mas para 
a efitiva modelagem dos dados de pesquisas por amostragem essa abordagem irâo é sufidente, e 
vários c»q>âulos do iívio são dedicados a estudar altmiativas. 

Há dms cannnhos princ^ais: análises agregadas ou análises desagregadas. Na análse 
desagrada, os modelos postulados envolvem a e^edficação de distribuições para as variávds de 
interesse na popula^o alvo e para a rda^o dessas cmn variávds amdliares consideradas no 
desenho amostrai Nesse caso, as inferôidas podem ser fdtas ignorando o desenho amostrai de vez 
que as variáveis auxiliares do desenho já estão diretamente incorporadas no moddo. A análise 
agregada requer jq>enas a ei^edfica^o de modelos para descrever as ifistnbuições das variávds de 
interesse na população alvo, mas nesse caso as in^êndas para os parâmetros desses modelos 
devem ser fôáas levando-se em conta o desenho amostrai empr^do. 

Para ilustrar e analisar mdhor as abordagens alternativas, conãdere o problema de ajustar 
um moddo de regresrâo linear usando dados provenientes de uma pesquisa por amostragem Sgam 
y a variável resposta ez o vetor das variávds explicativas de interesse no exerdcio de modelagem, e 
seja X o vetor de variávds auxiliares condderadas no desenho amostrai (por exemplo, variávds 
indicadoras para os estratos de seleção ou para indicar a que conglomerado cada unidade pertence). 
O modelo de regressão linear rdadonando y com z pode ser e^edficado altemativamente por (7) 
ou(8)as^utr. 







( 7 ) 



( 8 ) 

onde 3o, 3 e y são parâmetros desconhecidos e os eiros Si são não coireladonados, com média 0 e 
vaiiânda conhecida a meaos de umâtor de escala C7e. 

O moddo "desagrado” (7) incoipoia diretamente as variávds do desoiho amostrai 
Natban e Ifolt (1980), considerando o caso em qne há ^enas uma variável e?qplícativa z e uma 
variávél de desenho x, afirmam que ^o há nada de novo na situação: estimadores "model-based" 
não viciados dos parâmetros desse modelo estão di^onrvds e a fun^ do desenho amostrai 
baseado na variávél x é mdhorar as propriedades desses estimadores^. Esse o donúmo da 
estatística dássica, pois a modelagem e?q>lídta da reposta como fim^o das vaiiávds auxiliares 
toma o desenho amostralnão informativo (Smilh, 1989). 

.^>esar de parecer sinq>]esi, essa abordagem envolve questões complexas. Raramaite a 
estrutura populacional conâderada no plangamento amostrai pode ser ''codificada” numa única 
variável auxiliar. £ mais comum haver dezenas de variáveis para r^resoitar os dífèiaates estratos e 
con^omerados aos quais pertencem as unidades. Isso motivou em parte o desenvolvimento recente 
no uso de moddos hierárqidcos para analisar dados de pesquisas por amostragem (Goldstân e 
Süver, 1989; Br}^ e Raudenbush, 1992X pois esses modelos permitan conãderar a dependôicia 
entre unidades da amostra, induindo efiitos de conglomeração. 

Por outro lado, a indusão de todas as vaiiávds auxiliares no modelo ^lesentaria desafios 
não triviais para o analista, em particular para a estimação adequada de todos os seus parâmetros. 
Além disso, a intopretabilidade e a \^lida^o do modelo se tomariam bem mais complexas 
(Sldnner, Hoh e Smiâi, 1989, p. 9). Outra dificuldade é que essa abordagem requer conhedmaito 
detalhado sobre as variávds x enqn^das no desenho amostrai, algo que fioqüentemente lüo está 
dü^onível para o analista (secundário) devido a restrições de confidoicialidade e outras razões 
práücas. 

Modelos "agrados” como (8), nos quais as variáveis auxiliares não figuram diretamoite, 
podem tamb ém ser preferidos por razões de sabstânda: as variávds de desenho x são em geral 
escolhidas por razõ^ práticas e não porque fezem parte da e?q)lica^o dentífica da resposta pelas 
variávds z. .^esar de não figurarem «qrlidtamente no modelo (8), as variáveis au xiliar es não 
podem ser ignoradas na estimadio dos parâmetros do mesmo. Isso fi>i d^ionstiado de ferma 
convincente por Hoh, Smith e W^iter (1980). Sipondo que os vetores têm distribuição 

Tiormal multivaiiada, esses autores mostraram que o estimador de máxima verossimilhança do 
parâmetro 3 no modelo (8) dq>ende da variável x. 




A liçótese de nonnalidade não é válida em getaL Mas o que se verifica sob nonnaUdade é 
que não se pode ignoiar o e&ito de seleção (Smith, 1993) das unidades populacionais com base nas 
variávds auxiliares x a maios que mna condido sga satisf^: é indq)eudente de x, na 

população. Como essa condição é laiamente satisfeita e de difícil verificado, é portanto essencial 
consideiar as variáveis auxiliares e/ou o desenho amostrai na realização de inferências sobre 3. 

Hoh, Smith e Winíer (1980) e Nathan e Hoh ( 1980) recomoidam uma abordagem "modelr 
based", que ignora o desenho amostrai e se basda no ençrego de estímadores de Máxima 
Verossimilhança (MV) no moddo normal naultívaiiado com dados inconçletos. Binder (1983) 
propôs uma abordagem denominada de Pseudo Msbdma Verossimilhança (PMV) que se aplica a 
moddos da femíKa eMponeadal, mas que ébastante sinqilesno caso do modelo linear (8) se os erros 
são n m-malment e distriboidos. Siqtooha que um censo fiisse realizado. Nesse caso, o estimador B 
de MV de P baseado em toda a pofpnlado finita soía obtido resolvendo-se a equa^o de 
verosâmilhança 



o (ZíZ„)5=Zír„ =» B=(Z'z„)-Zír„ 



(9) 



onde Zu e ¥u âío a rmitm. e o vetor de dados populadonais sobre as variávds z e respectívamente, 
e se assome que a matriz éinvezsível 

Como ap enas iima amostia da popula^o é observada, a idéb é usar os pesos amostrais Wj 
para es timar o total dos escores na popula^o, e rattão obter o estímador de PMV de {3 mediante a 
soluço das equações de psoido verosáiralhança: 



SwaO-, - r,v) = 0 «■ <z?r,z,)b^ = z^ffx =>i„=(z.'r.z.r’zx,i; 



( 10 ) 



onde ZseYs são a matriz e o vetor de dados amostrais sobre as variávds zey re^ectivamente. Ws é 
a matriz diagonal com os pesos amostrais e a matriz Z^I^Z^ é suposta inversívéL 

Quando os pesos amostrais são todos iguais o estimador em (10) coindde com o estimador 
de Mínimo s Quadrados Ordinários (MQO) dado por 

»^ = (z;z,)-zp; (11) 

Já quando os pesos são os do estímador de Horvitz-Thonçson, se obtém o estimador de 
Mínimos Quadrados Ponderados dado por 



b. = (ZMZsr'z:iz'Ys 



( 12 ) 




ondelX é 3 matriz diagonal com as probabilidades de incloâo ti/. 

O estímador MQO é vidado quando (y^) é correladonado com x e a sdeção da amostra 
dq)eade dessa variável (Nathan e Smith, 1989). Já o estímador de PMV é conastaite (sob o 
desoiho) para o parâmetro B definido em (9), embora haja perda de efidôida em relação ao 
estímador de MQO, que é "ótimo" sob o modeb. Essa troca odre vido e efidâida rq>resenta o 
leque de escolhas do analista na análise de dados de pesquisas pm* amostragem. Ignorar o desenho 
amostrai pode inq>licar em vido condderável no estímador e respectivas estimativas de predâo. 
Para redutir o vido contideca-se o desoiho amostrai, mas há getahnaite um preço a pagar em 
termos de efidênda. O debate sobre o papel que esses pesos amostrais devem desençenhar na 
in&rênda sobre modelos como (8) ainda não foi definitívamaite resolvido (Smith, 1988; 
PfofEdmann, 1993). Uma coisa é cota, eutr^anto: ignorar pura e timplesmoite o foto de que os 
dados provém de uma amostra conçlexa não é recomendável e os riscos dessa estratégia ão 
grandes em termos da possibilidade de infaiâidas incorretas. 

Uma vantagem do método de PMV é soa rdatíva sn:q>fiddade e o foto de que dq>ende de 
menos hçóteses que os métodos "moddrbased”. Isso pemntíu a soa inplantação em sistemas 
genéricos como SUDAAN e PC-CAKP, o que fodlitou bastante a moddagem de dados amostrais 
conplexos. 

Recentemente, Süva (1996) tem estudado o efôto de arpr^ar nas equações de pseudo 
verosarrxQhança os pesos do estímador de regressão dados por (2\ ao invés dos pesos do estímador 
de Horvitz-Thompson. Esse estudo tem intoesse prático porque muitas pesquisas divulgam dados 
individuais com pesos desse Ipo, adotados paia obter cafibração ou para compensar não-reposta. 
Os resultados até agora apontam que esses pesos têm propriedades muito semelhantes aos de 
Horvitz-Thonpson, embora haja cuidados a soem tomados em tomos da estimação da predsão. 

Essa discusão mostra a necfôãdade do IBOE prover seus usuários com informações 
sufidentes para que possam fozer uso adequado e correto dos dados. Isso inplica incluir pelo 
menos os pesos amostrais básicos (os mversos das probalnlidades de induzo) e vaiiávds 
indicadoras de estratificado e con^omeração junto dos miaodados, ainda que por razões de agüo 
estas variávds talv^ tenham que ser "codificadas". 

Péla meana razão se nota que o IBC£ ocipa uma poâção privilegiada em relação à 
posãbilidade de efotuar anáfises dos dados. Provavelmente é o único capaz de operimentar com o 
uso de modelos desagrados como (7) devido às dificuldades causadas para analistas secundários 
pelas restrições de protedo do sigilo das informações. Isso é espedalmente verdaddro para 
estimado de piedsão, pois esta requer infimnações mais detalhadas sobre o desenho amostrai que 
aquelas necessárias para obtardo de estimativas poirtuais. 

A ábordagan de PMV proposta por Binder (1983) é atrativa também porque se extende 
fà cihnent e paia outros modelos da fàmíHa e?q>anenda], tais como r^rossão logística, moddos log- 
fineares para anáhse de tabelas de contíngênda e outros modelos lineares generalizados. Alguns 
desses estão já implementados em sistanas gaiéricos como SUDAAN. 




Essa &dfidade e a maior dissemmação de mícrodados levaião a um uso mais sofisticado 
dos mesmos, por soa vez gerando maior demanda por novos microdados. Atender satisâtoiiameate 
essa demanda é mais um desafio para o IBGE, que predsa ao mesmo tenqio cumprir sua 
re^onsabilidade de preservar o si^o de informações individuais idoitificadas. 

Outra área em que o progresso da teoria vai desafiar o EBGE é a de análise das pesq[uisas 
longitu dinais Já existe algoma tradi^o em pesquisas como a PIM-PF e PIM-DG de analisar as 
séries lüstóricas agitadas e pobficar séries sazonalmente ajustadas (IBGE, 1991a). Mas essa é uma 
análise bastante ona, e nem mesmo praticada em todas as pesquisas rqp^das do 1BC£. A PME, 
por exenplo, ainda não faz ajuste sazonal e só recentemente se tem investigado a obtenção de séries 
sazonalmente rgustadas dos índices de preços calculados pelo IBGE (BuzanovsÜQr, Pinto e Cruz, 
1995). muito que &zer nessa área e é oicor^ador que pesquisadores do 1B(£ tenham 
recentemente submetido ao CNPq prqj^o de pesquisa sobre o tema para complementar o 
finandamento do trabalho (F^ó, Silva e Carvalho, 1996). 

F ínabnent e, vale ainda comaitar que o valor dos dados produzidos pélas pesquisas pode ser 
bastante aumentado quando essas âo condHnadas entre á e com dados de outras fontes, mediante 
estruturas analíticas mt^radoras, tais como a das contas nadonais ou os relatórios int^rados de 
indicadares sociais. Esses esquemas de análise permitem criticar e validar dados de forma que as 
pesquisas isoladas não contenqrlam, mas âio ainda pouco erqilorados, diante de seupotendaL 

5. Condusões e Desafios 

Esse artigo procurou rever a evohi^o observada no ertqrrego de métodos para seleto de 
amostras, estimação e análise de dados amostrais complexos no IBC£, ãzendo um paialeto com o 
desenvolvimento da teoria de amostragem em geral O IBGE emerge dessa revisão como um 
usuário maduro de màiodos para sde^o e estimação de amostras, enibora o mesmo não se possa 
dizer em termos da análise de resultados. 

Há grande desafios a aqierar paia manter a tradição nas áreas em que o 1BC£ tem 
«qietiâida adquirida, ban como para arrqrliar a utifização das modernas técnicas estatísticas 
disponíveis em beneficio da redução de custos via amostras menores, aumento da efidência e da 
precirâo mediante revirâo dos desaihos amostrais e estímadores enpregados, e aumento da 
velocidade de obtenção dos resultados via enqnego de àstemas g^éricos de estimado tais como 
SUDAAN e (SIS. que ampliar o uso de técnicas estatísticas de análise de dados tais como 
modelos hierárquicos, modelos de séries tenqiorais, etc. implantando uma cultura de anáhse dos 
resultados que reahmente o planejamento de pesquisas fiituras e ccmtribua de maneira mais efetiva 
no debate informado dos grandes temas de interesse nadonaL 

Uà também desafios em tomos de ampliar ainda mais o acesso aos mícrodados e outros 
resultados das pesquisas, o prrnc^al deles soido a divulgação mais rápida das informações. Os 
recentes progressos no emproo de teoiologías modonas como CD-ROM e redes como a 




INTERNET paia a dissemÍDa^o das informações deveião provocar aumento da demanda e do 
número de usuários em contato com o IBGE, que predsará estar prq)arado para atender essa 
demanda de forma mais ágd e sarisfotória. 

Será cada w&z. maig importante que o IBOE divulgue junto ao público usuário as 
metodolo^as adotadas na produto dos dados, juntamaite com informações sobre a qualidade dos 
mesmos, inchnndo estimativas da predsão amostrai, taxas de não>resposta e de imputação de itens, 
quando for o caso. Esse processo contribuirá para "educar” os usuários no entendimento mais pleno 
do processo de produção de informações empregando pesquisas por amostragem. 

Vale mendonar ainda a necesádade de conpletar a "conquista” de grupos ainda não 
conpletamente adq>tos do uso de amostragem, tanto dentro do IBGE como amre seus usuários 
menos crédulos. 

Para vencer todos esses desafios é irtpresdndível que o IBGE recrute, forme e mantenha 
em seus quadros pessoal téoiico qualificado, em particular nas áreas de Estatística e de 
amostragem Sem coropetôida no mango do "tdesc^io da Estatística”, ficará prgudicada a visão 
IBGEana da realidade brasildra. 
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